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jS 要 : [目的 /意义 ] 针 对 SAO 结构 短文 本 分 类 时 面临 的 语义 特征 短缺 和 领域 知识 不 足 问 题 ,提出 一 种 融合 语义 联想 和 
BERT 的 SAO 分 类 方法 ,以 期 提高 短文 本 分 类 效果 。|[ 方法 “过程 ] 以 图 情 领 域 SAO 短文 本 为 数据 源 ,首先 设计 了 
一 种 包含 “扩展 - 重 构 - 降 唆 "三 环节 的 语义 联想 方案 , 即 通过 语义 扩展 和 SAO 重 构 延展 SAO 语义 信息 ,通过 语 
义 降 嗓 解 决 扩展 后 的 骂 声 干扰 问题 ;然后 利用 BERT 模型 对 语义 联想 后 的 SAO 短文 本 进行 训练 ;最 后 在 分 类 部 分 
实现 自动 分 类 。[ 结果 /结论 ] 在 分 别 对 比 了 不 同 联想 值 \ 学 习 率 和 分 类 器 后 ,实验 结果 表明 当 联 想 值 为 10、 学 习 率 
为 4e -5 时 SAO 短文 本 分 类 效果 达到 最 优 ,平均 Fl 值 为 0.852 2, 与 SVM、LSTM 和 单纯 的 BERT 相 比 ,Fl 值 分 别 


提高 了 0.103 1、0.153 8 和 0.1405。 
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A ISAO  Subject-Action-Object) 是 以 特定 方法 从 论文 、 


E 5( Subject) 行为 (Action ) 和 客体 (Object) 三 部 分 组 


碾 芝 , 因 其 语法 结构 完整 , 相 较 于 单一 的 关键 词 更 能 
达 奉 富 的 含义 ,目前 在 潜在 创新 点 挖掘 5-5 .专利 特征 
分 研 ””` 新 兴 技 术 预 测 “” ”等 方面 具有 广泛 应 用 。 
SAD) 短 文本 分 类 研究 有 利于 系统 地 梳理 科学 技术 发 展 
脉络 ,高效 地 实现 文本 挖掘 工作 ,但 是 ,当前 在 提高 
SAO 短文 本 自动 分 类 效果 上 , 仍 面临 一 些 阻碍 ,如 何 将 
数量 庞大 而 类 目 零散 的 SAO 文本 进行 有 效 地 分 类 和 
组 织 已 经 成 为 目前 亟待 解决 的 问题 。 

与 普通 的 长 文档 和 短文 本 相 比 ,虽然 SAO 语法 结 
构 完整 ,但 表征 能 力 有 限 、 领 域 专 指 性 弱 ,可 供 提取 的 
特征 只 有 Subject 和 Object 以 及 二 者 的 对 应 关系 Ac- 
tion , 故 难以 得 到 有 效 的 特征 词 ;同时 受 限于 表达 结构 ， 
SAO 在 面向 特定 领域 分 析 时 常常 面临 领域 知识 不 足 问 
题 。 因 此 ,本 文 提出 融合 语义 联想 和 BERT 的 SAO 短 


文本 分 类 方法 ,并 以 图 书 情报 领域 SAO 短文 本 (以 下 
简称 为 图 情 SAO ) 为 数据 源 进行 实证 , 旨 在 丰富 SAO 
短文 本 的 表征 能 力 ,以 此 解决 SAO 分 类 时 语义 特征 短 
缺 和 领域 知识 不 足 的 问题 ,提高 分 类 性 能 。 


2 相关 研究 


SAO 本 质 是 包含 主 谓 宾 的 三 元 组 (Triple) ,由 两 个 
节点 (Node) 及 其 关系 (Edge) 组 成 ,是 构建 知识 图 谱 的 
基本 元 素 。 与 SAO 相 类 似 的 结构 还 有 SPO ( Subject- 
Predicate-Object) 和 SVO( Subject- Verb-Object ) ^! ,这些 
概念 均 是 通过 实体 识别 、 句 法 分 析 来 辨别 句子 中 的 句 
法 结构 和 依存 关系 ,以 此 提取 主 谓 宾 元 素 。SAO 与 
SPO SVO 的 不 同 之 处 在 于 应 用 场景 和 使 用 领域 的 不 
同 ,在 谓词 选择 上 各 有 侧重 ,其 中 ,近年 来 SAO 在 知识 
挖掘 与 发 现 潜在 创新 点 挖掘 .专利 特征 分 析 等 诸多 方 
面 均 有 广泛 应 用 。 

胡 正 银 等 从 微观 层面 的 SAO 构建 了 语义 TRIZ 的 
方法 流程 与 关键 技术 ,并 以 大 口径 光学 元 件 专 利 为 例 
构建 领域 个 性 化 语义 TRIZ ,结果 显示 提出 的 方法 能 
效 地 实现 半自动 构建 领域 个 性 化 语义 TRIZ P ;另外 ， 
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该 作者 后 续 又 基于 SAO 三 元 组 与 简单 知识 对 象 ,融合 
文本 挖掘 技术 构建 细 粒 度 .多 维度 的 领域 技术 索引 , 实 
现 了 领域 知识 楼 镜 .面向 TRIZ 的 语义 检索 与 专利 可 视 
化 分 析 功能 ”。 汪 雪 峰 等 ”通过 分 析 SAO 三 元 组 提 
出 了 基于 解决 方案 相似 性 来 确定 研发 合作 伙伴 的 方 
案 , 并 以 太阳 能 电池 行业 为 例 进行 实证 ,案例 表明 该 方 
案 能 够 帮助 公司 理解 研究 目标 之 间 的 关系 ;后 又 在 
2019 年 提出 了 基于 SAO 结构 的 创新 解决 方案 送 选 研 
究 ,该 研究 以 目标 研究 领域 具体 研究 问题 为 出 发 点 ， 
在 全 领域 寻找 潜在 解决 方案 ,并 从 技术 可 行 性 以 及 预 
期 效果 两 方面 对 这 些 潜在 解决 方案 进行 评价 ,实证 表 
明 该 方法 具备 有 效 性 。 

SAO 分 类 可 以 视 为 自然 语言 处 理 ( Natural Lan- 
guage Processing, NLP) 领域 一 种 特殊 的 文本 分 类 类 
型 天 短文 本 分 类 ,其 本 质 是 将 文本 内 容 转换 成 机 器 可 
识别 的 向 量化 表示 ,通过 机 器 自动 学 习 文本 特征 来 识 
别 绍 同 的 类 别 。 但 是 ,与 长 文档 分 类 不 同 ,短文 本 字数 
Rib, HERES, K IT UNE DUM DG AORE, PR CK 
各 好 学 者 围绕 机 器 学 习 , 深 度 学 习 、 混 合 模型 、 预 训练 
模型 及 数据 扩充 等 方面 展开 研究 。 
传统 机 器 学 习 的 短文 本 分 类 方法 诸如 支持 向 量 
DES pump i n I n Je BUS BLA s 
是 通过 对 样本 数据 构造 特征 工程 ,再 输入 特定 的 分 类 
器 波 现 训练 和 预测 ，"”。 但 该 类 方法 前 期 需要 构造 
万里 特征 工程 , 泛 化 能 力 弱 , 无 法 充分 利用 大 规模 数据 
学 特征 。 深 度 学 习 的 短文 本 分 类 方法 克服 了 传 
统 枇 器 学 习 的 缺陷 , 它 着 重 于 模型 构建 和 参数 调整 , 通 
过 深层 次 的 非 线性 变换 在 大 量 训练 数据 上 拟 合 特征 
值 ,诸如 循环 神经 网 络 "及 其 变种 模型 中 、 卷 积 神 
经 网 络 2 Ho ABUS I 等 深度 学 习 方 法 均 在 短文 本 
分 类 上 有 良好 表现 。 邓 三 鸿 等 ”融合 长 短期 记忆 网 
络 模型 和 字 喉 入 方法 对 中 文 图 书 标签 进行 分 类 ,通过 
题名 .主题 词 等 短文 本 特征 训练 模型 ,在 3 所 高 校 的 5 
个 类 别 书目 数据 的 分 类 实验 上 取得 良好 效果 ; 赵 亚 
娟 ”” Franck 等 分 别 利用 循环 神经 网 络 、 卷 积 神经 
网 络 及 混合 方法 对 专利 .对 话 行为 等 领域 的 短文 本 数 
据 进 行 分 类 ; 章 成 志 ”! HRA REI 等 或 改 
进 或 融合 的 层次 注意 力 网 络 ,为 短文 本 的 特征 表示 相 
关 工 作 中 提供 了 许多 研究 思路 。 但 这 些 方法 缺乏 对 文 
本 深层 次 含义 的 发 散 ,同时 需要 大 量 有 标签 数据 进行 
训练 ,对 数据 的 数量 和 质量 都 有 相当 高 的 要 求 , 简 单 少 
量 的 数据 难以 适应 复杂 的 网 络 模型 。 

2018 年 谷歌 提出 BERT 预 训 练 模型 ,采用 多 个 


in| 


双向 Transformer ^ 结构 的 编码 器 ,设计 大 量 多 头 注意 
力 机 制 (Muli-head Attention) ) ,依靠 大 规模 训练 数据 学 
习 通 用 知识 , 辅 以 少量 领域 数据 进行 微调 ,在 包括 文本 
分 类 的 多 个 下 游 任务 中 取得 SOTA ( State-Of-The-Art ) 
结果 。X. Qiu 等 详细 对 比 了 BERT 在 文本 分 类 上 的 
各 种 方法 ,在 微调 策略 .进一步 预 训练 和 多 任务 训练 等 
多 种 不 同方 式 提出 许多 思路 ;J. S. Lee ” X. Lu” 等 使 
用 BERT 在 专利 数据 分 类 上 进行 微调 , 均 实现 了 较为 
理想 的 效果 。 

在 BERT 融合 语义 信息 和 领域 知识 的 研究 上 ,一 
些 学 者 通过 改进 BERT 输入 模式 ,来 提升 文本 语义 信 
B7, W. Liu 等 ”提出 K-BERT, 将 训练 数据 映射 到 
领域 知识 三 元 组 中 以 增加 输入 数据 的 领域 知识 ,同时 
添加 一 层 可 视 化 层 用 以 解决 知识 噪音 问题 ,在 多 个 数 
据 集 上 取得 了 不 错 表现 ;S. Yu 5&7 提出 为 文本 构造 
辅助 句 和 领域 知识 ,把 分 类 任务 转换 为 二 进 制 句 子 对 ， 
探讨 了 学 习 策略 .学 习 率 .序列 长 度 和 隐藏 状态 向 量 对 
分 类 结果 的 影响 。 

上 述 学 者 的 相关 研究 为 本 文 提供 了 重要 思路 : 依 
托 预 训练 模型 ,通过 对 数据 集 进行 具体 领域 的 语义 联 
想 , 可 以 缓解 短文 本 语义 特征 短缺 和 领域 知识 不 足 的 
问题 。 但 针对 特殊 的 SAO 结构 短文 本 ,尤其 是 特殊 领 
域 如 图 书 情报 领域 的 SAO 分 类 ,尚未 有 相关 研究 进行 
论证 或 提出 较为 理想 的 解决 方案 ,文章 在 上 述 研究 基 
础 上 ,将 对 SAO 短文 本 分 类 做 进一步 探究 。 


3 融合 语义 联想 和 BERT 的 SAO 短文 
本 分 类 设计 

本 文 研究 框架 如 图 1 所 示 , 主要 包括 语义 联想 融合 
语义 联想 的 BERT 和 分 类 三 大 部 分 。 语 义 联 想 旨 在 提高 
SAO 语义 表征 能 力 和 解决 语义 噪声 干扰 问题 ,BERT 用 于 
微调 语义 联想 后 的 SAO 数据 ,最 后 在 分 类 部 分 选择 适当 
的 分 类 器 实现 短文 本 自动 分 类 。 另 外 文章 还 将 对 比 不 同 
模型 联想 值 .学 习 率 ,分 类 器 对 短文 本 分 类 结果 的 影响 ， 
以 期 探寻 适合 于 图 情 SAO 短文 本 分 类 的 最 佳 方案 。 
3.1 语义 联想 

本 文 提 出 的 语义 联想 方案 由 语义 扩展 、SAO 重 构 
和 语义 降 噪 三 部 分 组 成 ,其 目的 是 为 SAO 扩展 更 多 上 
下 文 信息 ,在 特征 编码 时 捕获 更 多 领域 知识 ,同时 防止 
联想 过 度 导 致 语义 表达 与 原 SAO 相 偏 离 , 因 此 ,该 方案 
包含 “扩展 - 重 构 - 降 品 ”三 个 环节 。 设 定 输入 为 SAO, 
已 经 训练 好 的 Word2Vec ” 图 情 领域 模型 记 作 M. 
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1 研究 框架 


3.1.1 语义 扩展 

图 书 情报 领域 SAO 与 普通 SAO 相 比 除了 语义 特 
征 短缺 外 ,还 存在 领域 知识 不 足 的 问题 。 具 体 来 说 ,在 
短 奖 本 自动 分 类 时 常常 面临 的 重要 挑战 是 因 图 书 情报 
颁 恬 的 公开 标注 样本 稀少 人工 标 注 成 本 高 品 . 知 识 水 
委 券 异 而 导致 的 标注 质量 参差 不 齐 、 领 域内 分 类 特征 
因此 语义 
扩展 的 目的 是 为 SAO 扩展 更 多 图 情 领 域 上 下 文 信息 ， 
在 特征 编码 时 捕获 更 多 图 书 情报 领域 的 知识 。 为 此 ， 
ERIA T ABRIR IER Word2 Vec 模型 ,该 模型 为 
Sbjct FI Object 分 别 适 配 在 向 量 空间 中 最 相近 的 同 义 
IH, ERBES SAO 的 表达 能 力 ,又 能 补充 更 多 的 领 
HNR, 

SETENE SP ERY ARAE S HR D 
mo n es 
SICERVRMBUPE HAARMA) 所 示 , 其 中 X 为 目 
EY 为 模型 空间 所 有 词汇 ,计算 得 出 的 备 选 词汇 
与 原 SAO 进行 映射 , 挂 载 到 各 自 对 应 查询 词 下 ,生成 
扩展 后 的 SAO 短文 本 ,以 树 状 结构 存储 为 SAO 树 , 记 
作 了 ,其 计算 公式 如 公式 (2) 所 示 , 其 中 为 联想 值 。 

— c JU 

EX) ON EET 

T=1(S…S,)A(0…0,)| 公式 (2) 

图 情 SAO 短文 本 核心 在 于 Subject 与 Object, Ac- 

tion 作为 谓词 只 反映 SAO 的 主客 体 关系 ,因此 不 对 Ac- 

tion 进行 扩展 ,只 对 Subject 和 Object 扩展 。 如 “大 学 图 

书馆 ,构建 ,学 习 共享 空间 ”进行 n =2 的 扩展 后 ,其 结 

构 见 图 2(a) 。 

3.1.2 SAO 重 构 

BERT 模型 接受 序列 结构 的 输入 ,因此 需要 将 SAO 

树 构造 成 线性 序列 结构 的 文本 , 记 作 工 。 此 时 有 两 种 

重 构 方案 ,以 “大 学 图 书馆 ,构建 ,学 习 共 享 空间 ”为 


cos(0) = 


例 ,方案 1 为 {大 学 图 书馆 高 校 图 书馆 研究 型 大 学 图 书 
馆 构 建 学 习 共 享 空间 信息 共享 空间 实体 空间 | , 见 图 2 
(b) , 记 作 LI ,表达 式 如 公式 (3 ) 所 示 : 
Li = 18,:-$, A0,:--0,] 公式 (3 ) 
方案 2 为 | 大 学 图 书馆 构建 学 习 共享 空间 ,大 学 图 
书馆 构建 信息 共享 空间 ,大 学 图 书馆 构建 实体 空间 ,高 
校 图 书馆 构建 信息 共享 空间 ,高 校 图 书馆 构建 学 习 共 
享 空间 ,高 校 图 书馆 构建 实体 空间 ,研究 型 大 学 图 书馆 
构建 实体 空间 ,研究 型 大 学 图 书馆 构建 学 习 共 享 空间 ， 
研究 型 大 学 图 书馆 构建 信息 共享 空间 | , 见 图 2(e) , 记 
作 L2 ,表达 式 如 公式 (4) 所 示 : 
0,-- 


O, 
AO, 公式 (4) 
两 种 方案 重 构 的 SAO 均 存在 与 原 SAO 表达 含义 
相 偏 离 的 问题 , 即 语义 噪声 。L, 的 语义 噪声 在 于 丢失 
语法 结构 关系 ,原本 的 主 请 宾 关 系 经 过 重 构 后 无 法 表 
达 完 整 的 语义 ,编码 的 词 间 关系 错位 ,导致 获取 到 错误 
前 后 文 信息 ;L, 的 语义 噪声 在 于 扩展 的 SAO 搭配 过 
载 , 造 成 过 度 联 想 ,导致 扩展 结果 与 原本 的 表意 相悖 。 
针对 该 问题 ,本 文 提 出 语义 降 品 解决 方案 。 
3.1.3 语义 降 噪 
由 于 训练 语 料 的 差异 化 分 布 和 词 向 量 表示 过 程 的 
黑 盒 属 性 ,Word2Vec 为 图 情 SAO 的 语义 扩展 难免 存在 
不 相关 其 至 相悖 的 特征 词 ,因此 扩展 和 重 构 后 的 图 情 
SAO 需要 进一步 “清洗 ”。 语 义 降 品 的 目的 是 降低 语 
义 联想 后 的 SAO 对 原 SAO 的 噪声 干扰 ,同时 最 大 程度 
保留 联想 信息 。 基 于 此 ,笔者 借鉴 注意 力 机 制 的 核心 
思想 ,为 每 个 扩展 词 进行 “打分 ” ,对 语义 联想 后 的 
SAO 有 选择 性 地 挂 载 或 遗忘 ,突出 重点 舍弃 元 余 。 
具体 思路 是 :为 每 个 扩展 词 分 别 赋 予 权重 , 权 值 以 
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目标 词汇 与 检索 所 得 词汇 的 Word2 Vec 相似 度 表 示 ,不 
同 权重 代表 不 同 扩展 词 的 重要 程度 ,原始 SAO 各 自 权 
重 均 为 1 ,随后 对 L, 中 每 个 SAO 进行 加 权 求 和 ,排序 
后 自 项 向 下 取 n+1 个 SAO 作为 语义 联想 后 的 SAO, 
即 工 ,表达 式 见 公式 (5 ) ,其 中 w 表示 不 同 扩展 词 所 赋 
予 的 不 同 权 值 。 


be UX wS, wAwO,, LY wS, wAwO, 2] 


公式 (5) 


! 加 语义 扩展 


= ee MAFUNN 
(b) SAO 重 构 1 

IO s  ....——— 
本 
E | (c) SAO 重 构 2 
E o L1.) 
er | (d) 38 SCR 
e 
co C PE 
CN 
e 
CN 

uL 融合 语义 联想 的 BERT 


:SAO 经 过 语义 联想 后 输入 BERT. 实现 微调 和 训 

文选 择 BERT 是 因为 BERT 作为 预 训练 模型 ,本 
身 颖 已 经 在 大 量 数据 训练 的 基础 上 携带 通用 领域 的 先 
Jas. XH BERT 进行 图 情 SAO 分 类 ,只 需要 微调 
语义 联想 后 的 SAO 数据 ,从 而 缓解 重新 开始 训练 复杂 
模型 参数 所 导致 的 过 拟 合 或 欠 拟 合 问题 ,以 期 提高 图 
fii SAO 词 向 量 的 表征 能 

BERT 预 训练 参数 结合 语义 联想 后 的 SAO 获取 的 
新 的 训练 参数 ,依次 经 过 词 租 人 和 多 层 双 向 的 Trans- 
former。 词 嵌入 用 于 将 输入 文本 转换 成 向 量 表示 ， 
Transformer 通过 编码 器 捕获 文本 权 值 信息 。 

词 嵌入 主要 分 为 3 APER FiA (Token Embed- 
ding) EZERA ( Segment Embedding ) 和 位 置 租 入 (Posi- 
tion Embedding) , 见 图 3, Eft A38 E BERT 字符 查询 
表 将 SAO 转换 为 字符 级 的 一 维 向 量 表示 ,在 MASK 时 
随机 遮 奸 一 部 分 字符 ,获取 从 左 向 右 和 从 右 向 左 的 双 
向 信息 , [CLS] 用 于 标记 一 条 SAO 的 开始 ,[ SEP] 标 记 
结束 ; 段 舱 和 人 标记 不 同 的 符号 用 以 获取 文本 的 全 局 语 
义 信息 和 识别 不 同 的 SAO ,并 与 字符 级 的 向 量 相 融合 ; 


Xu 


如 图 2(d) 所 示 ， 大 学 图 书馆 ,构建 ,学 习 共 享 空 
间 ” 语 义 降 品 后 的 SAO 表达 为 | 大 学 图 书馆 构建 学 习 
共享 空间 (3), 大 学 图 书馆 构建 信息 共享 空间 
(2.781) ,高 校 图 书馆 构建 学 习 共 享 空 间 (2. 735) ,大 
学 图 书馆 构建 实体 空间 (2.717 ) | 。 降 噪 后 的 SAO 在 
语义 联想 的 基础 上 降低 了 噪声 干扰 ,最 大 程度 地 保证 
了 语义 完整 性 和 发 散 性 ,保留 了 SAO 结构 的 位 置 关 
系 ,在 BERT 词 让 和 人 时 保证 了 位 置 岩 入 的 可 解释 性 。 


— B 


高 校 图 书馆 m 
A A i 
p 1 


2 语义 联想 示例 


位 置 腊 入 标记 前 后 文 信息 ;最 后 字 舱 入 、 段 脱 入 和 位 置 
TAFE DATAE Hb e ACT T EAS o 

BERT ffr EHCA EKI FRAR BO 8 92 27 Ab, 
位 置信 息 使 每 个 字 对 其 他 字 的 影响 不 完全 相同 ,使 
BERT 可 以 根据 上 下 文 动态 地 捕获 字 词 前 后 的 关联 性 。 
在 位 置 嵌入 时 ,字符 的 权重 系数 并 不 是 由 某 个 固定 参 
数 决定 ,而 是 由 前 一 个 字符 计算 权重 后 与 该 字符 权重 
进行 融合 ,这 样 在 生成 下 一 个 字符 时 ,原本 固定 的 参数 
w 被 蔡 换 为 根据 上 一 个 字 而 动态 变化 的 参数 wi, SAO 
的 每 一 个 字符 都 注入 了 上 一 个 字符 信息 ,输入 越 长 , 权 
重 系 数 越 重要 。 如 图 3(a) 所 示 ,原始 SAO 能 获得 的 前 
后 文 信息 不 足 ,在 计算 前 后 文 信息 时 扩展 权重 系数 只 
能 计算 到 15 ,语义 联想 后 的 SAO Milik A an 3 (b) 
所 示 , 经 过 联想 后 , 比 原始 SAO 权重 系数 更 高 ,更 加 注 
重 上 下 关系 的 能 入 ,模型 能 捕获 到 的 细节 信息 更 加 丰 


EX 
EH o 


词 般 入 后 连接 Transformer 编码 器 。Transformer 1E 
为 BERT 的 特征 抽取 器 ,采用 多 层 双向 的 结构 计算 隐 
藏 状态 向 量 ,其 中 包含 12 个 Transformer jathr ME k 
注意 力 (Multi-Head Attention ) , 层 层 累积 形成 BERT, 
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Transformer 编码 器 经 过 多 头 注 意 力 把 位 置信 息 加 入 到 
编码 中 ,并 考虑 前 一 个 字 对 当前 字 的 权重 影响 ,将 输入 


ggogogocoooeoogegoc 
F F F F F F F F F F F F F F F 
加 回国 四 加 四 四 四 四 四国 加 加 四 四 
0 ls] 3 n s] 6 8 ,|| w] 11 mnm s] 14 15 


维度 和 输出 维度 对 照 起 来 ， 


态 向 量 。 


经 过 归 一 化 后 输出 隐藏 状 


(未 语义 联想 的 词 嵌 人 


ME:EUBEBDDBEBEED 
ee 


(b) 语义 联想 后 的 词 谋 入 


图 3 融合 语义 联想 前 后 的 BERT iz SUN Eb 


3.5 分 类 

LOk BERT 训练 后 ,SAO 以 向 量 形式 表示 ,在 分 类 

ee ee 
常 接 入 全 连接 层 或 其 他 预 置 网 络 模 型 ,最 后 使 用 

ipe fna 函数 实现 分 类 。 


Softmax 实现 最 终 分 类 预测 结果 的 过 程 如 下 :如 
条 SAO 的 集合 : 
© D = | (L' ,label ),…,(L ,label )| 公式 (6) 


ON 其 中 代表 第 i 条 语义 联想 后 的 SAO ,ie R,label 
表示 第 i 条 SAO 对 应 的 类 别 ,label' < |1,2,…,c| ,c 为 
人 数量 ,对 于 任意 一 条 rq 
HIEI FEIEREN, 0 SAO 局 于 每 个 类 别 的 概率 ， 
F3 维和 矩阵 ,其 中 概率 值 最 大 值 即 为 该 条 SAO 所 属 


o 


BERT 层 经 过 训练 后 输出 模型 参数 9 和 隐藏 状态 
HÆ H, AE Softmax 目标 为 计算 概率 分 布 PClabel; VH 
[CLS],0) ,其 公式 如 (7) 所 示 , 经 过 上 述 策略 后 输入 
SAO 的 分 类 概率 值 。 


Pl label, | Has ,L)- 


e | HLCLS] ,L) 


xs NL | HLCLS],L) 公式 ( 7 ) 
j=1 


针对 本 文 语义 联想 后 的 图 情 SAO 这 样 多 条 语句 
表达 相似 含义 的 句 式 ,使 用 其 他 文本 分 类 器 对 分 类 结 
果 可 能 会 有 不 同 影响 ,产生 不 同 分 类 结果 ,因此 本 文 将 
对 比 不 同 分 类 器 对 短文 本 分 类 指标 的 影响 。 
3.4 评估 指标 

为 评估 SAO 短文 本 分 类 效果 ,本 文采 用 Precision, 
Recall 和 F1 值 作为 评价 指标 ,如 公式 (8) 至 (10) 所 示 ， 
P 值 常用 于 评估 预测 结果 中 正确 占 比 情况 ,P 值 越 高 则 
预测 正确 率 越 高 ,模型 效果 越 好 ;R 值 越 高 则 分 类 越 准 


确 , 模 型 效果 越 好 ;通常 情况 下 查 全 率 与 查 准 率 无 法 同 
时 达到 高 标准 ,而 单纯 以 P 值 或 R 值 作为 衡量 指标 缺 
乏 全 面 性 ,因此 使 用 Fl 值 取 加 权 调 和 平均 。 


预测 正确 结果 | 
”预测 出 的 所 有 结 公式 (8) 
i 结 
EH 
Wer 公式 (10) 


4 ”实证 研究 


基于 上 述 设计 思路 ,本 部 分 开展 实证 研究 。 为 对 
比 本 文 提出 的 融合 语义 联想 和 BERT 的 SAO 短文 本 分 
类 方法 和 传统 机 带 学 习 、 深 度 学 习 之 间 的 差异 ,实验 选 
择 支 持 癌 量 机 (SVM) 与 长 短期 记忆 网 络 (LSTM ) 作为 
对 比 基 准 模型 ;为 比较 不 同 数量 的 扩展 词 对 分 类 效果 
的 影响 ,将 进行 不 同 联想 值 下 的 实验 ;为 对 比 不 同学 习 
率 、 分 类 右 因 素 对 结果 的 影响 ,将 选择 联想 值 分 类 效果 
最 优 的 一 组 分 别 进行 不 同学 习 率 与 分 类 央 的 对 比 实验 。 
4.1 实验 环境 

人 硬件 配置 :Intel ES -2609v4 + NVIDIA TESLA P4 » 1 

软件 配置 :Win10 + Python3. 6 + Tensorflowl. 5 + 
Keras2. 1 + PaddlePaddlel.7 
4.2. 语 料 来 源 及 数据 集 
4.2.1 语 料 来 源 

本 文 数据 来 源 于 图 书 情报 领域 学 科 《 中 国 图 书馆 
学 报 》《 情 报 学 报 》《 大 学 图 书馆 学 报 》《 图 书 情报 知 
识 兴 图 书 与 情报 兴 情 报 资料 工作 兴 图 书 情 报 工 作 》 
《情报 理论 与 实践 《情报 杂志 》《 情 报 科学 《图 书馆 

论坛 兴国 家 图 书馆 学 刊 《 数 据 分 析 与 知识 发 现 ) 原 
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《现代 图 书 情报 技术 兴 图 书馆 学 研究 兴 图 书馆 兴 图 
书馆 建设 兴 图 书馆 杂志 3 兴 现 代 情 报 》 在 内 的 18 种 
CSSCI 期 刊 ,每 种 期 刊 选 取 被 引 频次 前 500 的 论文 题 
录 信 息 ,包含 2000 -2018 年 间 的 共计 9 000 条 数据 ,每 
条 论文 数据 包含 题名 、 作 者 .关键 词 等 属性 。 
4.2.2 Word2Vec 数据 集 及 模型 

Word2Vec 数据 集 用 于 训练 Word2Vec 模型 , Ey YE 
后 续 对 图 情 SAO 实现 语义 联想 。 为 了 提高 语义 联想 
词 的 质量 和 新 颖 程度 ,训练 数据 集 在 上 述 9 000 条 数 
据 基础 上 ,又 增加 了 《中 国 图 书馆 学 报 兴 图 书 情报 工 
作 兴 情报 学 报 兴 数据 分 析 与 知识 发 现 》 四 种 期 刊 在 
2000 -2020 年 刊 发 的 11 931 条 论文 题 录 信 息 。 由 于 
所 得 数据 属性 与 原 9 000 条 数据 属性 有 所 差异 , 且 构 
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PERESO 


202304.00515v1 


IV 
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ina 


SAO 短文 本 分 类 数据 集 

〇 图 书 情报 SAO 短文 本 分 类 数据 集 是 本 文 进行 自 
动 分 类 的 目标 数据 ,抽取 论文 数据 的 字段 包括 题目 和 
摘要 ,抽取 方法 是 基于 哈工大 LTP 依存 句法 分 析 和 语 
义 角色 标注 的 事件 开源 项 目 来 抽取 SAO 三 元 组 ,不 同 
的 是 本 研究 在 分 词 时 使 用 了 自 定 义 图 情 词 典 和 停 用 词 
表 , 在 调用 程序 中 的 TripleExtractor 类 方法 后 , 重 写 程 
序 功能 应 用 到 本 文 的 数据 上 。 另 外 ,在 抽取 后 ,我 们 定 
XT SAO 筛选 与 清洗 规则 ” ,对 SAO 的 质量 进行 过 
滤 , 从 而 保证 SAO 的 可 用 性 。 清 洗 后 经 过 人 工 标注 的 
图 书 情报 领域 SAO 短文 本 数据 ,共计 11 021 条 ,每 条 


h 


cr 


建 模型 对 词汇 重复 性 并 无 要 求 , 因 此 不 进行 数据 去 重 ， 
最 终 得 到 构建 Word2Vec 模型 的 数据 共计 20 931 条 。 
Word2 Vec 训练 之 前 需要 分 词 .去 停 用 词 大 小 写 
转换 删除 无 用 符号 等 预 处 理 操作 ,为 了 尽 可 能 保证 模 
型 质量 ,笔者 从 《中国 大 百科 全 书 图 书馆 学 ' 情报 学 
. 档案 学 》" 和 《新 编 图 书馆 学 情报 学 辞典 》” 中 抽 
取 了 60 503 个 词 条 作为 jieba 分 词 的 外 部 词典 ,定义 了 
4 652 个 常见 字 、 词 .符号 作为 停 用 词 表 , 选 择 Censim 
库 实现 训练 过 程 ,各 项 参数 分 别 为 :维度 100 ,修剪 词 
典 数 量 3 ,训练 算法 Skip-gram, 跳 词 窗口 5, 经 过 10 次 
迭代 后 完成 训练 。 如 查询 与 “信息 ”相近 的 词语 ,可 视 
化 词 向 量 结 果 如 图 4 所 示 : 


Search 
fem * by 


4  Word2Vec 训练 词 向 量 可 视 化 


经 查询 相关 文献 ,标准 ,专利 和 多 次 专家 讨论 后 定 为 6 
大 类 别 ,分 为 信息 资源 建设 .信息 组 织 ` 图 书 情报 工作 
管理 .信息 服务 与 用 户 研究 .情报 分 析 与 研究 其 他 。 
数据 经 过 人 工 标注 后 ,由 本 领域 专家 进行 意见 反馈 ,经 
由 4 位 图 书 情报 领域 专家 和 学 者 多 次 讨论 和 修改 后 最 
终 确认 。 各 类 别名 称 与 14、 数 量 对 应 关系 如 表 1 所 示 ， 
上 述 数 据 按照 8:2 的 比重 进行 随机 抽取 ,并 设置 随机 
种 子 ,确保 随机 抽样 的 可 控 性 。 
R1 类 别 -标签 -样本 量 对 照 


数据 包含 subject , action , object 和 label 四 项 属性 ,SAO 
短文 本 的 字符 长 度 分 布 和 词 频 分 布 情况 见 图 5。 

本 文 分 类 标签 参考 全 国 技术 名 词 审定 委员 会 公布 
的 《图 书馆 : 情报 与 文献 学 名 词 2019》 的 八大 分 类 
方法 ,考虑 到 训练 语 料 分布 状 况 和 词 向 量 表示 的 限制 ， 
法 之 一 ,其 原理 是 在 N 维 空间 中 找到 一 个 超 平面 对 数 


Tabel FER 信息 ”图书 情报 ， 他 信息 服务 ”情报 分 析 
源 建 设 A 。 工作 管理 与 用 户 研 究 “与 研究 
Id 0 1 2 3 4 5 
Quantity — 1 708 2 326 1932 1562 1968 1525 


4.3 基于 基准 模型 的 SAO 短文 本 分 类 实验 
4.3.1 基于 SVM 的 SAO 短文 本 分 类 实验 

支持 向 量 机 (SVM) 是 应 用 最 为 广泛 的 机 器 学 习 算 
据点 进行 划分 ,使 两 类 别 距 离 该 平面 的 距离 最 大 化 , 相 
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subject 字 符 长 度 分 布 Action 字 符 长 度 分 布 - Object 字 符 长 度 
3500 8000 5000: 
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250 8000 4000 
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a5 2000. 1000 
0 0 0 
0 5 10 15 20 25 1 2 3 4 5 6 3 8 0 10 20 30 40 50 60 
字符 长 度 字符 长 度 字符 长 度 
Subject 前 30 词 频 分 布 Action 前 30 词 频 分 布 Object 前 30 词 频 分 布 
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600 dti 600 
500 500 
E x 300 a 400 
300 20d 300 
200 200. 
100 
100 100 
N o Loco ro e oes i E EES 
T E 5 pn 2 TR B E 
dH | 
y~ 5 图 情 SAO 语 料 分 布 情况 
ru 
“人 中 使 用 SVM 模型 均 取得 不 错 的 效果 , 因 表 3 LSTM 模型 各 项 分 类 指标 
选择 SVM 作为 对 比 基 准 模型 之 一 。SVM 经 过 Id P R Fl 
4 Sb Na quU 依次 经 过 特 9.645 7 0:602:5 0.623 3 
, 0. 684 0.682 4 0.683 4 
ERE 尘 和 特征 权重 计算 ,构造 SVM 分 类 器 ,经 过 多 次 i il i 
优化 后 准确 率 达到 0.75 ,平均 FL 值 0.749 1。 2 0.701 5 0.674 5 0.687 7 
s 3 0.683 3 0.737 4 0. 709 3 
ee etin 2 DIE 4 0.716 7 0.7222 0.719 5 
> 表 2 SVM 模型 各 项 分 类 指标 5 0.7766 0.754 2 0.765 3 
d P R F1 Average 0.701 4 0.695 5 0. 698 4 
C 0.7524 0. 701 8 0.726 2 : z "Em 
S 4.4 融合 语义 联想 和 BERT 的 SAO 短文 本 分 类 实验 
. 0.789 2 0. 789 2 0.789 2 wN 
E 4.4.1 不 同 联想 值 下 的 SAO 短文 本 分 类 实验 
0.7570 0.772 6 0.7647 
= X Ab A ‘E. V M 、 
Q, bus bons end 不 同 扩展 词 能 够 生成 不 同 长 度 和 语义 的 SAO ,为 
， n Kin 对 比 联想 值 对 分 类 效果 的 影响 ,本 部 分 进行 不 同 联想 
5 0.760 6 0.708 2 0.7334 值 下 的 实验 。 综 合 考虑 硬件 条 件 与 Word2 Vec 规模 大 
Average 0.752 2 0.7476 0.749 1 小 后 ,联想 值 n I REA 0,5 10,15, BERI E PE XC 
版 BERT ,四 项 实验 采取 统一 配置 参数 :Epochs Jy 10, 
4.3.2 基于 LSTM 的 SAO 短文 本 分 类 实验 


长 短期 记忆 网 络 (LSTM ) 是 循环 神经 网 络 (RNN ) 
的 变形 之 一 ,借助 门 (Cata) 机 制 降低 句子 的 长 期 依赖 ， 
有 效 化 解 了 梯度 消失 及 梯度 爆炸 问题 ,广泛 应 用 于 文 
本 分 类 问题 “” ,因此 选 作 本 文 基准 模型 之 一 。LSTM 
输入 编码 映射 到 词典 为 每 个 词 分 配 一 个 编号 后 向 量 
化 ,每 条 SAO 转换 成 一 个 整数 序列 的 向 量 ,激活 函数 
设置 为 Softmax ,损失 函 数 设 置 为 分 类 交 又 炉 。 经 过 多 
次 训练 迭代 之 后 , 当 Epochs 为 10,Batch_size 为 32 时 
效果 最 优 ,准确 率 0.7 ,平均 Fl 值 0.698 4, 各 项 指标 如 
表 3 所 示 : 


Batch. size 为 32 .迁移 优化 策略 选择 PaddlePaddle 封装 
的 AdamWeightDecayStrategy 策略 Weight. decay 设置 为 
0.01 , Warmup 所 占 比重 为 0.1、 优 化 器 选择 Adam .学习 
率 均 设置 为 4e -5 、 分 类 器 设置 为 全 连接 网 络 ,使 用 激 
活 函 数 Softmax。 实 验 数据 第 一 列 是 文本 内 容 , 第 二 列 
为 文本 类 别 , 列 与 列 之 间 以 Tab. 键 分 隔 ,以 tsv 格式 输 

入 ,经 过 训练 ,不 同 联想 值 下 各 项 指标 如 表 4 所 示 。 观 
察看 出 当 n = 10 时 ,平均 Fl 值 为 0.807 3 ,达到 最 优 ， 
说 明 当 为 SAO 扩展 10 个 词汇 后 其 语义 表达 能 力 达 到 
最 好 。 后 续 对 比 实验 将 基于 n= 10 展开 。 
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"P 
KER, dein, AAA, 等 . 融合 语义 联想 和 BERT 的 图 情 领域 SAO 短文 本 分 类 研究 [J] . 图 Alina bo 
118 — 129. 
Z4 BERT 模型 不 同 联想 值 下 各 项 分 类 指标 
BERT(n =0) BERT(n =5) BERT(n =10) BERT(n =15) 
k P R F1 P R F1 P R F1 P R F1 
0 0.714 3 0.669 9 0.765 0 0.792 9 0.767 4 0.820 2 0.8139 0.799 7 0.828 5 0.702 1 0.732 5 0.674 1 
1 0.799 0 0.8210 0.778 1 0.8024 0.838 1 0.769 6 0.8256 0.851 1 0.801 6 0.799 4 0. 807 0 0.791 9 
2 0.668 2 0.667 5 0.669 0 0.729 0 0.692 1 0.7700 0.782 2 0.742 2 0.826 7 0.670 6 0.662 8 0.678 5 
3 0.680 3 0.706 1 0.656 3 0.776 2 0.758 3 0.795 0 0.798 6 0.816 7 0.7813 0.716 0 0.7539 0.681 7 
4 0.705 0 0.693 5 0.716 9 0.747 8 0.790 2 0.709 6 0.803 8 0.8178 0.790 4 0.708 1 0.666 7 0.755 1 
5 0.686 7 0.688 8 0.684 7 0.750 5 0.7518 0.749 1 0.8123 0.809 4 0.8152 0.679 3 0.660 1 0.699 7 
Average 0.708 9 0.707 8 0.711 7 0.766 5 0.766 3 0.768 9 0.806 1 0.806 1 0.807 3 0.7126 0.7138 0.713 5 


4.4.2 不 同学 习 率 下 的 SAO 短文 本 分 类 实验 

学 习 率 是 影响 分 类 指标 的 重要 因素 之 一 ,不 同学 
习 率 对 训练 过 程 的 损失 值 产 生 不 同 影响 :学习 率 过 大 
容易 造成 梯度 爆炸 .损失 步 振幅 难以 平滑 ,导致 模型 无 
法 收敛 ;学 习 率 过 小 导致 收敛 速度 缓慢 ,造成 数据 过 拟 


合 。 本 部 分 在 联想 值 n = 10 的 基础 上 ,将 学 习 率 (采用 
科学 计数 法 ) 分别 设置 为 le-6\2e-5.4e-4.4e-5 
进行 对 比 实 验 ,其 他 配置 参数 不 变 。 经 过 训练 后 ,各 项 
指标 如 表 5 Bron : 


表 5 BERT 模型 不 同学 习 率 下 各 项 分 类 指标 


le -6 2e -5 4e -4 4e -5 
p R Fl p R Fl p R Fl p R Fl 
0.5971 0.5322 0.6799 0.8194 0.8188 0.8200 0.7199 0.7118 0.7281 0.8538 0.8264 0.8831 
0.6914 0.6738 0.7099 0.8472 0.8675 0.8279 0.7536 0.7881 0.7219 0.8604 0.8742 0.8470 
0.4817 0.4522 0.5152 0.8171 0.8164 0.8177 0.6672 0.6414 0.6052 0.8283 0.8165 0.8404 
0.3170 — 0.4290 0.2514 — 0.8000 0.8287 0.7732 0.6557 0.6830 0.6304 0.82019 0.8407 0.8039 
0.4686 — 0.4398 0.5014 — 0.7834 0.7459 — 0.8248 0.6692 0.6080 0.7441 0.8323 0.8262 0.8386 
0.4424 0.5879 — 0.3547 — 0.7810 — 0.7810 — 0.7810 — 0.6667 — 0.7518 — 0.5989 — 0.8293 0.8498 — 0.8098 
0.4997 0.5192 — 0.5021 0.8080 0.8097 0.8074 0.6887 0.6973 0.6864 0.8377 0.8390 0.8371 
不 同 分 类 器 下 的 SAO 短文 本 分 类 实验 R6 BERT 模型 不 同 分 类 器 下 各 项 分 类 指标 
COBERT 分 类 任务 通常 选用 简单 的 全 连接 网 络 作为 | ism 
4238 , LÀ Softmax 作为 激活 函数 实现 自动 分 类 。 针 对 P R n P R " 
nes ts SAO 文本 这 样 多 条 语句 表达 相似 含义 的 名 0 0.8709 0.8694 0.8725 0.7795 0.7801 0.7790 
式 禾 择 其 他 网 络 模型 作为 分 类 器 能 否 提 高 分 类 效果 ? 1 0.8756 0.8836 0.8677 0.8112 0.8046 0.8179 
2 0.8468 0.8630 0.8312 0.7333 0.7395 0.7271 
为 此 ,本 部 分 在 联想 值 n = 10 ,学 习 率 leaming-rate = 4e 3 0.8355 0.8274 0.8439 0.7523 0.7650 0.7400 
-5 的 基础 上 对 比 全 连接 网 络 (Fully Connected. Net- 4 0.8474 0.8221 0.8743 0.7310 0.7231 0.7390 
work , FC) 和 LSTM 网 络 作为 分 类 器 对 P 值 R 值 Fl 值 5 0.8381 0.8535 0.8233 0.7574 0.7567 0.7581 
的 影响 。 全 连接 网 络 接受 句子 级 别 特征 ,输出 对 应 Average 0.8524 0.8531 0.8522 0.7608 0.7615 0.7602 


[ CLS] 对 应 向 量 , 格 式 为 [ — 1, emb. size ] ;设置 为 LSTM 
时 ,输出 字符 级 别 特 征 , 结 构 为 [ -1,max_seq_len,emb 
size ] ,改变 分 类 器 时 在 Task 添加 一 层 网 络 即 可 。 经 
过 训练 ,各 项 指标 见 表 6。 
4.5 结果 分 析 
4.5.1 不 同 分 类 模型 实验 结果 对 比分 析 

不 同 模型 之 间 的 平均 P 值 R 值 Fl 值 如 图 6 所 
示 , 其 中 BERT 取 结 果 最 高 的 一 组 作为 对 比 。 通 过 对 比 
可 以 发 现 融 合 语义 联想 和 BERT 模型 后 的 SAO 平均 FI 
值 相 较 于 SVM 与 LSTM 更 高 ,分 别 是 0.852 4 0.853 1, 


0.852 2; 如 图 7(a)(b) 所 示 ,BERT 在 各 个 类 别 的 F1 
值 均 处 于 最 高 水 平 , 箱 线 图 的 类 别 分 布 也 处 于 较为 稳 
定 的 状态 。 因 为 BERT 在 大 规模 预 训练 语 料 的 基础 
上 ,结合 本 文 提 出 的 语义 联想 方案 ,利用 通用 知识 和 领 
域 知识 相 融 合 的 方式 ,能 够 更 显 性 地 表征 语义 信息 , 同 
时 语义 降 噪 能 够 遗忘 相关 度 较 低 .噪声 较 大 的 联想 词 ， 
完备 性 进一步 提高 ,从 而 分 类 效果 更 好 。 男 外 ,SVM 相 
比 LSTM 识别 效果 较 好 ,其 中 F1 值 达 到 0.749 1 ,SVM 
作为 传统 机 器 学 习 算 法 ,能 够 有 效 地 处 理 高 维特 征 样 
本 ,同时 在 样本 量 较 少 的 情况 下 的 特征 提取 , 相 比较 结 
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构 复 杂 的 深度 学 习 模型 ,不 需要 完全 依赖 参数 特征 , 单 
一 领域 的 泛 化 能 力 较 强 。 而 次 度 学 习 模 型 LSTM 对 于 
数据 的 分 类 效果 不 如 其 他 两 个 ,因为 LSTM 作为 循环 
神经 网 络 的 变形 ,模型 参数 和 计算 量 更 加 复杂 ,需要 输 
入 大 量 数 据 学 习 不 同类 别 之 间 的 特征 差异 ,对 于 数据 
不 充足 的 实验 容易 丢失 编码 信息 ,SAO 短文 本 结构 简 
洁 , 无 需 学 习 过 长 序列 , 词 间 数 量 也 较为 固定 ,构建 的 
词典 规模 不 大 ,因此 无 法 发 挥 大 规模 参数 计算 的 优势 ， 
导致 分 类 效果 不 如 其 他 模型 。 
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图 6 不 同 模型 下 各 项 平均 指标 比较 
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4.5.2. 不 同 联想 值 的 实验 结果 对 比分 析 

不 同 联想 值 下 的 分 类 效果 有 所 不 同 , 如 图 7(c) 所 
Ah ,分 类 结果 Pl 值 受 n 影响 较 大 , 当 n =0, 即 不 对 SAO 
文本 进行 语义 联想 时 ,分 类 效果 最 差 ,维持 在 0. 65 - 
0.75 之 间 ; 当 n=5 时 ,Fl 值 总 体 上 升 , 说 明 扩 展 5 个 词 
后 的 效果 比 不 扩展 好 ; 当 n=10 时 ,各 类 别 了 1 值 提升 
效果 显著 ,各 类 别 维持 在 0.8 上 下 ,如 图 7(d) 所 示 ,n 
=10 时 各 类 别 差异 最 不 显著 , 即 差 距 最 小 ,稳定 性 最 
好 。 但 当 n 值 达到 15 时 ,Fl 值 大 幅 下 跌 , 降 低 到 0.67 
-0.75 上 下 ,Fl 最 大 值 和 平均 值 之 间 的 差异 比较 大 ， 
分 类 效果 差距 比较 大 ,稳定 性 较 差 ,这 是 因为 
Word2 Vec 训练 数据 规模 有 限 ,无 法 完全 为 每 个 词语 匹 
配 出 最 相似 的 表达 ,因此 当 n=15 时 ,联想 词 的 整体 关 
联 性 下 降 , 导 致 SAO 文本 与 对 应 类 别 的 偏 移 度 上 升 ， 
分 类 效果 降低 。 从 0 到 5 到 10, 随 着 联想 值得 提高 ,分 
K Fl 值 随 之 提高 ,说 明 随 着 扩展 词 的 增加 ,SAO 短文 
本 语义 信息 越 丰富 ,每 一 个 类 别 之 间 的 差异 更 加 显著 ， 
达到 联想 值 达到 15 时 ,效果 下 降 ,可 以 认为 SAO 短文 
本 分 类 效果 随 着 联想 值 提 高 而 提高 ,但 联想 值 需 要 控 
制 在 局 部 范围 内 。 
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图 7 不 同 变量 对 分 类 结果 的 影响 


4.5.3 不 同学 习 率 和 分 类 器 的 实验 结果 对 比分 析 
不 同学 习 率 下 的 损失 与 精确 度 变 化 如 图 8 所 示 ， 
当 学 习 率 设置 为 le -6 和 4e-4 时 ,训练 过 程 的 损失 


下 降 缓慢 ,精确 度 最 高 在 0.6 左右 , 随 着 学 习 率 减 小 ， 
训练 损失 逐渐 下 降 、 精 度 值 逐 渐 提 升 , 当 学 习 率 为 4e 
-5 时 ,达到 四 项 最 优化 ,各 类 别 Fl 值 及 其 分 布 如 图 7 
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(e) (P) Brzn ,F1 值 在 2e -5 和 4e -5 时 最 为 集中 UE 
于 稳定 ,其 余 则 较为 分 散 、Fl 值 离散 程度 较 高 。 可 以 
看 出 ,图 情 SAO 各 类 别 分 类 效果 与 学 习 率 大 小 有 较为 


loss 


0 500 1000 1500 2000 
setp 


密切 关系 ,学习 率 越 小 分 类 指标 越 高 ,在 数据 集 上 表现 
也 更 好 ,这 也 正 符合 BERT 和 其 他 深度 学 习 模 型 的 一 
RIE, 
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图 8 不 同学 习 率 对 结果 的 影响 


E 
会 图 7(g) Ch) 中 不 同 分 类 器 下 各 类 别 指标 采取 在 
BERT 后 连接 全 连接 层 和 LSTM 层 的 差异 显著 ,只 使 用 
XB MAH F1 值 达到 0.852 2, 各 类 别 F1 值 整体 
ARRETE 0. 85 左右 ,但 接 入 LSTM 后 再 使 用 激活 函数 
Soliax 分 类 的 结果 只 有 0. 760 2, 与 基线 LSTM 相同 ， 
BERI 后 连接 LSTM 再 进行 分 类 的 向 量 计算 并 没有 提 
巷 疯 数 增 加 带 来 的 优势 ,效果 反而 不 如 直接 连接 的 全 
XE. 

Cx 上 所 述 ,对 比 不 同 模型 .不 同 联想 值 .学习 率 , 分 
KRI SAO 分 类 的 效果 后 ,表明 与 传统 机 器 学 习 、 深 
HESÉ SJ AEG ,融合 语义 联想 和 BERT 的 SAO 短文 本 分 
类 月 法 有 更 显著 的 优势 , 相 比 较 单 纯 的 SVM LSTM 和 
B 分 类 模型 ,Fl 值 分 别提 高 了 0.103 1,0.153 8 和 
0:140 5 ,在 局 部 范围 内 分 类 效果 与 联想 词 数量 呈正 相 
关 关 系 ,在 联想 值 固定 情况 下 ,学 习 率 和 分 类 器 对 结 
也 有 一 定 影响 ,最 终 当 联想 值 为 10, 学 习 率 为 4e -5 时 
SAO 分 类 效果 达到 最 优化 。 


5 结语 


针对 SAO 短文 本 分 类 存在 的 问题 ,本 文 提 出 了 融 
合 语义 联想 和 BERT 的 SAO 短文 本 分 类 方法 ,以 期 延 
ft SAO 表征 范围 .提高 了 融合 学 习 率 ,并 采用 该 分 类 
方法 对 图 情 领域 SAO 进行 了 实证 研究 ,通过 对 实验 结 
果 的 对 比分 析 , 发 现 融 入 图 情 专 业 知识 的 输入 数据 结 
f; BERT 能 够 更 好 地 识别 图 情 领域 SAO 短文 本 ,证明 
“语义 联想 + BERT" 的 SAO 短文 本 分 类 方法 是 可 行 
的 。 但 是 本 文 所 提出 的 方法 还 存在 一 定 的 局 限 性 ,由 
于 语义 联想 模型 语 料 受 限 的 原因 ,所 以 实验 无 法 为 每 
个 SAO 短文 本 进行 充分 地 语义 联想 ,由 此 出 现 了 当 联 


想 值 进一步 提高 时 分 类 效果 降低 的 现象 ,此 外 ,该 方法 
也 未 能 扩展 到 更 多 领域 进行 适应 性 检测 ,在 接 下 来 的 
研究 工作 中 ,笔者 将 对 上 述 问题 做 进一步 探究 。 
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Research on SAO Short Text Classification in LIS Based on 
Semantic Association and BERT 
-一 Zhang Yujie! Bai Rujiang Liu Mingyue Yu Chunliang 
> ! Institute of Information Management, Shandong University of Technology, Zibo 255049 
D ? Yantai University Library, Yantai 264005 
LO) Abstract; [ Purpose/significance ] Aiming at the shortage of semantic features and insufficient domain knowl- 
e in the classification of SAO structure short texts, this paper proposes a SAO classification method combining se- 
«mantic association and BERT in order to improve the classification effect. | Method/process | Taking the SAO short 
Gext in the library and information science field as the data source, firstly, a semantic association scheme including 
three links of “ Expansion-Reconstruction-NoiseReduction" was designed. The semantic information of SAO was 
Cextended through semantic expansion and SAO reconstruction, and the extended noise interference problem was 
Qi. by semantic noise reduction; then used the BERT model to train the SAO short text after semantic association ; 
全 any realized automatic classification in the classification part. | Result/conclusion | After comparing different as- 
> ATENTO values, learning rates and classifiers, the experimental results show that when the association value is 10 
the learning rate is 4e — 5, the SAO short text classification effect is optimal, and the average F1 value is 
*07852 2, which is comparable to SVM and LSTM compared with pure BERT, the F1 value is increased by 0. 103 1, 
bs 8 and 0. 140 5 respectively. 


Keywords: SAO short text classification semantic association BERT 


129 


